Brecha de fiabilidad en auditoría de benchmarks: cambio de distribución y escala
Descubre por qué la detección de contaminación en benchmarks de IA falla por cambio de distribución y escala. Estudio con 335 evaluaciones muestra la brecha.
Descubre por qué la detección de contaminación en benchmarks de IA falla por cambio de distribución y escala. Estudio con 335 evaluaciones muestra la brecha.
Descubre CoEval: un framework que evalúa y rankea modelos de lenguaje sin necesidad de datos etiquetados ni benchmarks fiables. Resultados limpios y por solo $5.89.